查看原文
其他

ICLR 2023 | 从2D图像学习如何在3D场景进行几何分解与操纵

让你更懂AI PaperWeekly 2023-05-19




作为人类,我们每时每刻都生活在 3D 场景中,并与之积极的交互。在生活实践中经常会产生一些拍脑袋的有趣想法,我们很容易能够发挥主观能动性对周围的场景中的物体进行改造和互动。但是在万物皆数字化的今天,想在虚拟世界里去随心所欲改变场景和其中的物体,并不是一件容易的事情。


按照人类想法改变和创造环境,在操作层面并不难想象,但在虚拟三维世界的技术层面实现上述操作非常具有挑战性,因为它涉及在单个框架中进行 3D 场景的重建(reconstruction)、分解(decomposition)、操纵(manipulation)和真实感渲染(rendering)。

为此,作者设计了一个简单的流程:DM-NeRF,它建立在 NeRF 成功的基础上,但能够将整个 3D 空间分解为物体场,并自由地操纵它们的几何形状,以实现逼真的新视图渲染。总体而言,DM-NeRF 可以同时恢复 3D 场景中的几何体,仅从 2D 图像中就能够学习分解和操作物体实例。

在多个数据集上进行的大量实验表明:DM-NeRF 可以精确分割所有 3D 物体并有效编辑 3D 场景中的几何体,同时并不会牺牲新颖视角下渲染的高保真度。

论文标题:
DM-NERF: 3D scene geometry decomposition and manipulation from 2D images.

论文链接:

https://arxiv.org/abs/2208.07227 [1]

开源代码及数据集:

https://github.com/vLAR-group/DM-NeRF [2]




引言

在许多有趣的视觉和图形学应用程序中,比如移动设备上部署的混合现实 APP,用户经常会对在 3D 场景中虚拟地操纵某些物体很感兴趣:具体的例子是在一个 3D 的房间中移动椅子或制作飞行扫帚。为了实现这一操作,除了需要满足用户能够轻松地编辑真实场景,还要能够满足用户从任意新视角来查看某个物体。
对于使用传统流程:首先使用 SfM/SLAM 技术来重建显式的 3D 结构,比如点云或多边形网格,然后识别 3D 物体,再进一步对其手动编辑。然而,显式的 3D 表示受制于将物体的连续表面表示离散化,并且改变形状通常需要额外的修复程序,如重新网格化。因此,传统的方法难以保留物体的几何形状和外观细节,这导致生成的新视角视图质量不高,难以吸引人。
对于使用隐式表示:特别是 NeRF 可以从图像中表示连续的 3D 几何结构。基于此在后续发展了一系列方法,比如将照明因素与结构解耦,允许自由编辑照明和材质。但它们无法将 3D 场景几何体分解为单个对象,所以很难在复杂场景中操纵单个对象的形状。最近的工作已经开始学习用于潜在几何操作的解缠结形状表示法。然而,它们要么专注于合成场景,要么专注于简单的模型分割,很难扩展到具有数十个对象的真实世界 3D 场景。
为了解决以上局限性,作者的目标是:1)同时恢复连续的 3D 场景几何(物体),分割 3D 空间中的所有单个对象,并支持灵活的对象形状操作,如平移、旋转、大小调整和变形。2)此外,希望编辑后的 3D 场景也可以从新颖的视图中进行渲染。
本文的主要贡献是:
  • 提出了一个物体场,仅从 2D 图像中直接学习 3D 空间中每个对象的唯一编码,与常用的基于单图像的分割方法相比,显示出显著的鲁棒性和准确性。

  • 提出了一种反向查询算法,以有效地编辑指定的对象形状,同时从新颖的视图生成逼真的场景图像。

  • 展示了 3D 分解和操纵的卓越性能,同时还贡献了首个用于 3D 场景编辑定量评估的合成数据集。




背景与问题


2.1显式3D表示

为了表示对象和场景的 3D 几何结构,广泛使用体素网格、八叉树、网格、点云和形状基元。尽管在形状重建、补全、生成和场景理解方面取得了令人印象深刻的进展,但这些表示的质量本质上受到空间分辨率和内存占用的限制。因此,它们很难表示复杂的 3D 场景。

2.2 隐式3D表示

为了克服显式表示的离散化问题,最近提出了基于坐标的 MLP 来学习表示连续三维形状的隐式函数。通常可分为:1)有符号距离场 2)占用场 3)无符号距离场。其中,占用网络和有符号距离字段都只能恢复闭合的三维形状,并且很难表示开放的几何图形。这些表征已被广泛研究用于新视图合成和 3D 场景理解。由于其强大的表示能力,已经取得了令人印象深刻的结果,特别是在神经辐射场及其后续方法中。

2.3 3D物体分割

为了从复杂场景中识别 3D 对象,现有的方法通常包括:1)基于图像的 3D 对象检测;2)基于三维体素的检测方法和;3)基于三维点云的对象分割方法。给定具有完整 3D 对象注释的大规模数据集,这些方法已经实现了优异的对象分割精度。然而,它们特别设计用于处理显式和离散的 3D 几何图形。因此,它们无法分割连续和细粒度的形状,并且无法支持几何体操作和逼真的渲染。

2.4 3D场景编辑
从图像编辑 3D 场景的方法可以分为:1)外观编辑和;2)形状编辑。大多数工作都专注于外观编辑的灯光分解。但它们并不能单独操纵单个物体。最近的一些工作开始学习用于潜在几何操作的解耦形状表示法。然而,它们只能处理单个物体或简单场景,而无法学习用于精确形状操纵和新颖视图渲染的独特物体编码。此外,还有大量关于基于生成的场景编辑的工作。尽管他们可以操纵合成的对象和场景,但他们无法从真实世界的图像中发现和编辑对象。

综上所述,这项任务极具挑战性,因为它需要:1)一种适用于连续和隐式 3D 场的物体分解方法,而不依赖任何 3D 标签进行监督,显然在连续 3D 空间中收集标签是不可行的;2)一种符合所学习的隐式和分解场的物体操纵方法,能够解决改变物体同时造成不可避免地引起的视觉遮挡。




方法:DM-NeRF

DM-NERF 由 3 个主要组成部分组成:1)现有的辐射场,用于学习空间中每个 3D 点的体积密度和外观;2)所述物体场学习用于每个 3D 点的唯一物体编码;3)直接编辑任何指定对象的形状并自动处理视觉遮挡的物体操纵器。

▲ 图1. DM-NERF工作流程

3.1 物体场 Object Field

物体场是 DM-NeRF 的核心。该组件旨在为整个场景空间中的每个 3D 点预测一个热向量,即物体编码。然而,学习这样的编码涉及关键问题:1)没有可用于完全监督的 3D 物体编码真实值;2)总物体的数量是可变的,并且物体没有固定的顺序;3)必须考虑未被占用(空的)3D 空间,但也没有用于监督的标签。

在本节中,作者展示了物体场以及多个精心设计的损失函数可以在仅使用 2D 对象掩码的彩色图像的监督下正确地处理它们。

▲ 图2. 网络架构。
物体场表征:给定输入点,将物体场建模为其坐标的函数,因为 3D 点的物体特征与视角无关。物体场由一个热向量表示。基本上,这个热对象编码旨在准确描述三维空间中任何点的物体所有权。然而,有两个关键问题:1)3D 场景中的物体总数是可变的,可以是一个或多个;2)除了物体之外,整个 3D空间还具有大的未被占用的体积。
为了解决这些问题,作者将物体编码定义为 H+1 维,其中 H 是网络预计最大预测的物体的预定义数量。在实践中,可以安全地为 H 选择一个相对较大的值。对象编码的最后一个维度被特别保留来表示未被占用的空间。
物体编码投影:考虑到在连续的 3D 空间中收集物体编码的标签以进行监督是行不通的,但是在 2D 图像上收集物体的标签还是相当容易且低成本的,所以作者的目标是沿着查询射线将物体编码投影回 2D 像素。由于主干 NeRF 学习的体积密度表示几何分布,因此使用 NeRF 的采样策略和体积渲染公式简单地近似像素的投影物体编码即可。
物体编码监督:在有投影的 2D 物体预测的情况下,作者选择带有物体标签的 2D 图像进行监督。然而,还有两个问题:1)由于视觉遮挡,物体的数量和顺序真值在不同的视图中可能完全不同。因此,一致地使用 2D 标签进行监督是非常重要的;2)2D 标注仅为三维实体物体提供标签,但 3D 中未占用空间从未记录在 2D 图像中。因此,不可能从 2D 标签中直接监督未占用的空间。

a. 为了解决第一个问题,作者使用 3D-BoNet 提出的最优关联和监督策略。如图 3 所示。

▲ 图3. 用于2D物体匹配和监督的ℓ2d_obj示意

b. 为了解决第二个问题受助于估计的表面距离来监督 3D 空间中的未占用物体编码。如图 4 所示,一旦解出表面距离 d,就可以很容易地知道沿着光线的每个第 k 个采样点和表面点之间的相对位置。所以自然可以识别一定属于空白空间的样本点的子集,如绿色点所示,表面附近的样本点子集,如红色点所示和表面后面的样本点剩余子集,如黑色点所示。这种几何信息提供了监督空白空间的关键信号,即物体编码的最后一个维度。

▲ 图4.空白点识别

3.2 物体操作器 Object Manipulator

一旦很好地学习了物体场,物体操纵器旨在在指定目标对象、视角和操纵设置时直接编辑几何体并渲染新视图。一种简单的方法是获得明确的 3D 结构,然后进行手动编辑和渲染,明确地解决任何形状遮挡和碰撞问题。然而,从隐式场中评估密集的 3D 点是极其低效的。为此,作者引入了一种轻量级的反向查询算法来自动编辑场景几何体。

  • 首先,需要解决操纵过程中物体之间潜在的冲突。这是非常直观的,这要归功于在物体编码的最后一个维度中对空白空间的特殊设计。

  • 其次,由于视觉遮挡,表面点后面的物体编码可能是不准确的,因为它们没有得到充分优化。相比之下,沿着光线投影的物体编码往往更准确,主要是因为有用于强监督的 2D 标签真值。

  • 最后,需要一个系统的程序来用已知的操作信息更新编码。为此,作者设计了一种反向查询方法。

反向查询:在 3D 空间中编辑,然后进行 2D 投影。如图 5 所示,对于沿着特定查询射线的任何 3D 采样点,给定目标(即待编辑)物体编码及其操纵设定(相对平移,旋转矩阵,缩放因子)。首先计算一个逆 3D 点 pk′,然后评估 pk 和 pk′ 是否属于目标物体,并且最后决定是否编辑编码。

▲ 图5.反向点计算




实验与分析

4.1 数据集

DM-SR:由于目前还没有适用于几何操作定量评估的 3D 场景数据集。因此,作者创建了一个包含 8 个不同且复杂的室内房间的合成数据集,称为 DM-SR。

▲ 图6. DM-SR 3D场景数据集
对于每个场景,生成以下 5 组图像:
  • 第 1 组(无操纵):从上半球的视点渲染 400×400 像素的彩色图像和 2D 物体掩码。生成 300 个视图用于训练。

  • 第 2 组(仅平移):选择一个物体沿 x 或 y 轴平移,平移距离为 0.3m。

  • 第 3 组(仅旋转):选择一个物体以围绕 z 轴旋转约 90 度。
  • 第 4 组(仅缩放):选择一个物体以缩小约 0.8×。

  • 第 5 组(平移/旋转/缩放):选择一个物体同时平移约 0.3m,旋转约 90 度,缩小约 0.8×。

对于每组,生成 100 个视图,用于在相同的视点进行测试。
Replica:一个基于重建的高保真场景 3D 数据集。选择 8 个场景(每个场景中有 10 个对象)进行评估。每个场景都有大约3000 张带有 2D 物体掩码和相机姿势的原始图像,其中平均选择300个视图进行训练,100 个视图进行测试。

ScanNet:一个具有挑战性的大规模现实世界数据集。选择 8 个场景(每个场景中有 10 个对象)进行评估。每个场景都有大约 3000 张带有 2D 物体掩码和相机姿势的原始图像,其中平均选择 300 个视图进行训练,100 个视图进行测试。

4.2 实验结果

  • 3D场景分解

使用100%准确的2D标签进行训练:

作者的方法在新的视图渲染方面取得了优异的结果,这并不令人惊讶。值得注意的是,在所有三个数据集中的复杂 3D 场景的多个视图上都获得了近乎完美的对象分割结果,明显优于基线。

对具有 2D 标签噪声的鲁棒性:


可以看出,即使添加了 80% 的 2D 标签噪声在训练中是不正确的,作者的方法在测试/新视图上仍然获得了优异的对象分割分数(AP0.75=74.08)。相比之下,一旦超过 50% 标签噪声在训练中有噪声,两个基线方法都会灾难性地失败。

  • 3D物体操纵/编辑

在新视图渲染的质量明显优于 PointNeRF 方法,尽管与表 1 中的不操纵相比,操纵后的质量有所下降,主要是因为照明因素没有分解,并且编辑对象物体的照明显示出差异。然而,物体分割仍然近乎完美。


参考文献

[1] https://arxiv.org/abs/2208.07227: https://arxiv.org/abs/2208.07227
[2] https://github.com/vLAR-group/DM-NeRF:https://github.com/vLAR-group/DM-NeRF



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存